模态

cadrille:基于在线强化学习的多模态CAD重建技术

计算机辅助设计(CAD)是现代工程和制造业的核心,它让我们能够创建精确且可编辑的3D模型。然而,手动创建CAD模型需要专业技能和大量时间。如何让计算机自动从现有物体中重建CAD模型,一直是研究人员追求的目标。2025年5月,来自AIRI研究院、莫斯科罗蒙诺索夫

模态 cad rl 点云 cadrille 2025-06-04 16:13  10

AI在三维CAD领域的应用

基于国产三维云架构CAD皇冠CAD(CrownCAD)平台,构建了“大模型底座-多模态智能体-行业应用”三层AI创新体系,为机械制造、航空航天、汽车电子等七大领域提供全链路智能化解决方案。

应用 智能体 模态 cad 咖啡机 2025-06-04 14:50  6

国泰海通:AI基础设施完善 细分领域应用望步入拐点

国泰海通发布研报称,维持传播文化业“增持”评级,建议关注具备优秀产品布局和潜力的公司。2024年以来,随着AI技术完善和趋于稳定,在应用端的效果也开始有所体现,部分赛道和产品已经有初步成绩。AI应用发展经历了“纯文字-静态图像/声音-动态视频”的过程,赛道也相

应用 模态 国泰 海通 国泰海通 2025-06-04 14:10  10

OPA-DPO:多模态大模型幻觉难题的高效解决方案

在视觉多模态大语言模型的快速发展中,幻觉问题一直是研究者们关注的焦点。模型生成与输入图像不一致甚至虚假的内容,不仅影响用户体验,也阻碍了多模态技术在实际场景中的落地。对此,微软亚洲研究院和香港中文大学的联合研究团队从直接偏好优化(DPO)入手,提出了 On-P

模型 模态 et 幻觉 dpo 2025-06-04 13:50  8

视觉感知驱动的多模态推理,阿里通义提出VRAG

在数字化时代,视觉信息在知识传递和决策支持中的重要性日益凸显。然而,传统的检索增强型生成(RAG)方法在处理视觉丰富信息时面临着诸多挑战。一方面,传统的基于文本的方法无法处理视觉相关数据;另一方面,现有的视觉 RAG 方法受限于定义的固定流程,难以有效激活模型

模态 推理 视觉 模态推理 vrag 2025-06-03 18:01  9

视觉感知驱动的多模态推理,阿里通义VRAG,定义下一代检索增强生成

在数字化时代,视觉信息在知识传递和决策支持中的重要性日益凸显。然而,传统的检索增强型生成(RAG)方法在处理视觉丰富信息时面临着诸多挑战。一方面,传统的基于文本的方法无法处理视觉相关数据;另一方面,现有的视觉 RAG 方法受限于定义的固定流程,难以有效激活模型

模态 推理 rag 视觉 模态推理 2025-06-03 17:27  9

用多维精细感知任务解析多模态大语言模型的方向理解能力

多模态大语言模型(MLLMs)近年来在许多视觉-语言任务上取得了令人瞩目的进展,但它们是否真正理解物体的方向性?这个看似简单的问题,实际上关系到机器人操作、自动驾驶和增强现实等众多实际应用。波士顿大学的研究团队于2025年5月发表了一项开创性研究,深入探究了这

模型 模态 语言 理解能力 dori 2025-06-03 16:59  10

OpenAI未公开的o3用图思考技术,被小红书、西安交大尝试实现了

OpenAI 推出的 o3 推理模型,打破了传统文字思维链的边界 —— 多模态模型首次实现将图像直接融入推理过程。它不仅 “看图”,还能 “用图思考”,开启了视觉与文本推理深度融合的问题求解方式。例如,面对一张物理试卷图像,o3 能自动聚焦公式区域,分析变量关

模态 openai 西安交大 o3 提塔利克鱼 2025-06-03 16:38  9

哈佛等顶尖学府研究Token压缩,重塑生成式AI未来

在2025年5月发表于arXiv的一篇前沿研究论文中,来自哈佛大学、东北大学、中国科学院、武汉大学、麻省理工学院和北京大学的多位研究者联合提出了一个颠覆性观点:Token压缩不仅仅是提高AI模型运行效率的工具,更应该成为生成式AI模型设计的核心原则。这项由Zh

模态 研究 哈佛 学府 token 2025-06-03 11:51  10